Định nghĩa Quá trình quyết định Markov

Ví dụ về một MDP đơn giản với ba trạng thái và hai hành động.

Một quá trình quyết định Markov là một tập 5-dữ liệu  ( S , A , P ⋅ ( ⋅ , ⋅ ) , R ⋅ ( ⋅ , ⋅ ) , γ ) {\displaystyle (S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ),\gamma )} , trong đó

  • S {\displaystyle S}  là một tập hữu hạn các trạng thái,
  • A {\displaystyle A} là một tập hữu hạn các hành động (ngoài ra, A s {\displaystyle A_{s}}  là tập hữu hạn các hành động có sẵn từ trạng thái s {\displaystyle s} ),
  • P a ( s , s ′ ) = Pr ( s t + 1 = s ′ ∣ s t = s , a t = a ) {\displaystyle P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)} là xác suất mà hành động  a {\displaystyle a}  trong trạng thái  s {\displaystyle s}  tại thời gian t {\displaystyle t}  sẽ dấn đến trạng thái  s ′ {\displaystyle s'}  tại thời gian  t + 1 {\displaystyle t+1} ,
  • R a ( s , s ′ ) {\displaystyle R_{a}(s,s')}  là phần thưởng trực tiếp (hoặc phần thưởng trực tiếp mong đợi) nhận được sau khi chuyển tiếp sang trạng thái  s ′ {\displaystyle s'}  từ trạng thái  s {\displaystyle s} ,
  • γ ∈ [ 0 , 1 ] {\displaystyle \gamma \in [0,1]}  là hệ số chiết khấu, sẽ đại diện cho sự khác biệt quan trọng giữa các phần thưởng tương lai và các phần thưởng hiện tại.

(Ghi chú: Lý thuyết của quá trình quyết định Markov không nói rằng  S {\displaystyle S}  hoặc  A {\displaystyle A}  là hữu hạn, nhưng các thuật toán dưới đây giả định rằng chúng là hữu hạn.)

Tài liệu tham khảo

WikiPedia: Quá trình quyết định Markov http://www.cs.ualberta.ca/~sutton/book/ebook http://www.cs.uwaterloo.ca/~jhoey/research/spudd/i... http://www.springer.com/mathematics/applications/b... http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/5... http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.ht... http://www.eecs.umich.edu/~baveja/ http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps... //dx.doi.org/10.1287%2Fmoor.22.1.222 http://www.jstor.org/stable/3690147 http://ncatlab.org/nlab/show/Giry+monad